Model Selection

ViT-GPT2 Joint Model

# ViT-GPT2 Joint Model

Vit Gpt2 Image Chinese Captioning

This model uses ViT for image encoding and GPT-2 for decoding, supporting Chinese image caption generation.

Transformers Chinese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase